ایجاد سامانه ای برای بررسی دقت روش lsa در خلاصه سازی متون زبان فارسی

پایان نامه
چکیده

در این پایان نامه خلاصه سازی استخراجی متون زبان فارسی مورد توجه قرار گرفته است. با توجه به شیوه های معمول امتیازدهی برای خلاصه سازی، در این پایان نامه سعی بر این است که شیوه lsa را که کمتر در زبان فارسی به آن پرداخته شده است، به کار گرفته شود و نتایج به دست آمده آن ارزیابی گردد. در شیوه lsa با استفاده از ماتریس تکرار واژه ها متن سعی بر این است که ساختارهای مخفی در متن شناخته شود. آزمایش های انجام شده با استفاده از متون پیکره همشهری انجام شدند. این متون شامل ?? متن خبری از روزنامه همشهری بوده است و هر یک از آنها به طور متوسط بیش از ?? جمله داشته اند. این متون در ژانرهای اجتماعی سیاسی و ادبی قرار گرفته بودند. به عنوان ارزیابی میزان عملکرد الگوریتم خلاصه های تولیدی نسبت به خلاصه های دستی تولید شده به وسیله انسان بررسی شدند. در ادامه بهبودهایی برای الگوریتم lsa ارایه و مورد ارزیابی قرار گرفتند. این بهبودها در امتیاز استفاده شده پایه در الگوریتم lsa بوده است. بهبودهای پیشنهادی در این پایان نامه شامل امتیاز لغوی با برقراری ارتباط میان کلمات هم معنی، امتیاز گرامری با در نظر گرفتن طول جملات به عنوان امتیاز تقویت کننده هر جمله و ترکیب امتیاز mmr برای هر جمله در ماتریس تکرار عبارات است که به ترتیب دو تغییر اولی موجب بهبود عملکرد الگوریتم lsa به طور متوسط بیش از ?? و امتیاز mmr آن را در حدود ??.?? تقویت نمود. در ادامه عملکرد الگوریتم در برابر عدم تعیین صحیح مرزها مورد ارزیابی قرار داده شد. خلاصه سازی چند سنده نیز در این پایان نامه مورد بررسی قرار گرفت و عملکرد الگوریتم lsa پایه و الگوریتم lsa بهبودیافته با تمام تغییرات مورد ارزیابی قرار گرفت که عملکرد الگوریتم lsa بهبود یافته با در نظر گرفتن تمام تغییرات بیش از ?? بهتر از الگوریتم lsa پایه بوده است. در ادامه تاثیر جملات تکراری در خلاصه چند سنده مورد ارزیابی قرار گرفت و میزان تاثیر آن به نمایش گذاشته شده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش‌های پردازش زبان طبیعی و گراف شباهت

A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of tex...

متن کامل

ایجاز:یک سامانه عملیاتی برای خلاصه‌سازی تک‌سندی متون خبری فارسی

The rapid growth of published documents on the web has created some new requests for processing, classification and information retrieval. So, the use of natural language processing tools has increased around the world. Automatic summarization known as the core of a wide range of text-processing tools such as decision systems, accountability systems, search engines, etc. And always has been inv...

متن کامل

خلاصه سازی ماشینی آماری متون فارسی

در این تحقیق سیستمی جهت خلاصه سازی آماری متون فارسی طراحی و پیاده سازی شده است.

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...

متن کامل

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing.   This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...

متن کامل

الگوی بررسی ساختار ارتباطی زبان در متون تعلیمی ادبیات فارسی

حوزة پژوهش‌های زبانی سنتی یا بلاغت، با حوزة مطالعات زبان­شناختی معاصر دارای چنان ارتباط استواری است که از آن می‌توان به بوطیقای ارتباط یاد کرد. این بوطیقای ارتباط در هر گونة ادبی، مقتضای حال متفاوتی با گونه‌های دیگر دارد. بلاغت زبان در مثنوی نیز بر پایة بوطیقای «ارتباط- ترغیب»ی شکل گرفته است که در یک سوی آن، «بافت متن» به چشم می‌خورد و در سوی دیگر، عواملی را می‌توان یافت که توانش ارتباطی مثنوی ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده علوم ریاضی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023